Lab 10 - Projekt blok2_2024

Lab 10 - Projekt podsumowujący zajęć dotyczących testowania hipotez

Cel projektu

Celem projektu jest analiza datasetu Gender, Mental Illness, and Crime in the United States, 2004 (ICPSR 27521). Dane można pobrać z serwisu lub z lokalnej kopii.

Próba: NATIONAL HOUSEHOLD SURVEY ON DRUG USE AND HEALTH (NSDUH), 2004 [ICPSR 4373] obejmuje 67 760 osób. Plik do użytku publicznego zawiera 55 602 rekordów ze względu na resampling stosowany w procesie anonimizacji. Próba jest stratyfikowana na wielu poziomach, zaczynając od stanów. Osiem stanów jest uważanych za stany o dużej próbie i wnoszą około 3600 respondentów na stan. W pozostałych stanach próba obejmuje 900 respondentów. Proces próbkowania respondentów był prowadzony w sposób systematyczny. Każdy respondent, który ukończył pełny wywiad, otrzymał 30 USD gotówki. Próbkowanie obejmowało pięć grup wiekowych: 12–17 lat, 18–25 lat, 26–34 lata, 35–49 lat oraz 50 lat i więcej. Projekt próby obejmował mniej więcej równą liczbę osób w grupach wiekowych 12–17 lat, 18–25 lat i 26 lat i starszych.

Opis wszystkich kolumn można znaleźć w dokumencie 27521-0001-Codebook.pdf Zestaw danych zawiera łącznie 3011 zmiennych. Pierwsze 2690 zmiennych pochodzi z NATIONAL HOUSEH SURVEY ON DRUG USE AND HEALTH (NSDUH), 2004 [ICPSR 4373], a pozostałe 321 zmiennych zostało stworzonych przez głównego badacza. Pytania z NSDUH z 2004 r. obejmowały wiek w momencie pierwszego użycia, a także używanie kilku klas narkotyków w ciągu całego życia, coroczne i w ciągu ostatniego miesiąca. Ankieta obejmowała historię leczenia uzależnień i postrzeganą potrzebę leczenia oraz zawierała pytania z Diagnostic and Statistical Manual (DSM) of Mental Disorders, które umożliwiają zastosowanie kryteriów diagnostycznych. Ankieta zawierała pytania dotyczące leczenia zarówno uzależnień, jak i zaburzeń związanych ze zdrowiem psychicznym. Respondenci byli również pytani o nielegalne działania i rejestr aresztowań, problemy wynikające z używania narkotyków i dzielenie się igłami. Pytania obejmowały również różne tematy, takie jak środowisko sąsiedzkie, nielegalne działania, zażywanie narkotyków przez przyjaciół, wsparcie społeczne, zajęcia pozalekcyjne, narażenie na programy zapobiegania nadużywaniu substancji i programy edukacyjne oraz postrzegane postawy dorosłych wobec zażywania narkotyków i zajęć, takich jak praca w szkole. Kilka pytań koncentrowało się również na tematach związanych z zapobieganiem. Zachowano również pytania dotyczące zdrowia psychicznego i dostępu do opieki, postrzeganego ryzyka zażywania narkotyków, postrzeganej dostępności narkotyków, prowadzenia pojazdów i zachowania osobistego oraz palenia cygar. Uwzględniono również zmienne demograficzne i informacje ogólne, takie jak płeć, rasa, wiek, pochodzenie etniczne, stan cywilny, poziom wykształcenia, status zawodowy, status weterana i obecny skład gospodarstwa domowego. Zmienne utworzone przez głównego badacza są zagregowanymi danymi z pierwotnego zestawu 2690 zmiennych. Konkretnie zmienne te obejmują wskaźniki depresji, wskaźniki uzależnienia od narkotyków, interakcje z płcią i innymi zmiennymi demograficznymi oraz zmienne odnoszące się do typów nadużywania narkotyków i zachowań przestępczych.

Informacje dotyczące opracowania i prezentacji danych

Ostateczny raport z analizy przedstaw w formie jupyter notebook, możesz jednak dołączyć dodatkowe pliki ze skryptami, z których korzysta notatnik (przy założeniu że znajdują się one w tym samym katalogu co notatnik). Jeśli wykorzystujesz dodatkowe dane, które nie zostały załączone do datasetu to należy je również załączyć (gdy dane są wczytywane w notatniku powinny być zaczytywane z tego samego katalogu w którym znajduje się notatnik). Jeśli do pozyskania/przetworzenia danych z których później korzystasz w notatniku wykorzystałeś własne skrypty to również powinny być dołączone z krótką informacją dotyczącą ich przeznaczenia. Jeśli analizujesz istotność danego czynnika, np. istotność grupy wiekowej, środowiska zycia, dochodu czy też doświadczeń w zażywaniu narkotyków pamiętaj o tym, że wnioski muszą opierać się na analizie przedziałów ufności (w przypadku czynników analizowanych przy pomocy regresji), lub wynikach testów statystycznych. Zastosowany sposób analizy powinien zostać krótko uzasadniony.

Zadania

Temat projektu określa pewne ramy, które powinien objąć, szczegółowe rozwiązania proszę zrealizować w oparciu o dotychczas pozyskaną wiedzę, własną widzę dziedzinową oraz ew. dodatkowe dane, które dostarczają informacji o innych potencjalnie ważnych czynnikach, które mogą mieć wpływ na rozwój depresji.

W analizie danych poszukujemy czynników wpływających na rozwój depresji, tak, żeby po ich określeniu można było dokonać oceny ryzyka depresji w danej grupie wiekowej. Szczegółowy opis cech można znaleźć w CookBook oraz na stronie icpsr.

Jako wskaźnik wystąpienia depresji możesz wykorzystać m.in. następujące zmienne (pamiętaj, żeby nie używać ich jako zmiennych niezależnych w modelu umożliwiającym rozpoznanie depresji):

DEPRESSIONINDEX obejmujący połączenie indeksu dla wszystkich grup wiekowych - wskaźnik natężenia depresji w skali 0-9 dla grupy dorosłych i w wieku młodzieńczym - należy zwrócić uwagę na ankiety bez udzielonej odpowiedzi kodowane jako -9
DEP_EPISODE doświadczenie epizodu depresji w okresie całego zycia
MDELastYr - epizod depresji w ostatnim roku
ANYTXRXMDE - jakiklolwiek zdarzenie zawiązane z leczeniem depresji lub receptą na leki antydepresyjne w minionym roku
Warto tutaj dokonać rozróżnienia na depresję somatyczną, która charakteryzuje się równoczesnym występowaniem zaburzeń apetytu, problemów ze snem oraz zmęczenia oraz depresję niesomatyczną przy której te 3 objawy nie występują równocześnie.

Jako wskaźnik grupy wiekowej używaj: CATAG2, który dzieli populację na 3 równoliczne grupy 12-17, 18-25, powyżej 25 lat lub CATAG3 zawierających równoliczne 5 kategorie wiekowe lub CATAG7 wyróżniających 7 kategorii wiekowych. Grupa wiekowa (12-17 (youth)) ma w pewnych obszarach inne zestawy pytań niż grupy starsze (rozróżnienie jest kodowane w nazwach kolumn YOxxx lub ADxx).

Jako wskaźnik płci: IRSEX

Jako wskaźnik rasy: NEWRACE2

Jako wskaźnik uzależnienia od narkotyków i alkoholu:

ANYINDEX - wskaźnik uzależnienia od dowolnego rodzaju narkotyków 0-1
doświadczenie w zażywaniu konkretnych rodzajów narkotyków: MJANDCOKE, ILLICITDRUGUSE, LSYRILLICIT, COKECRACK, OTHERILLICIT
zażywanie narkotyków w okresie minionego roku: MARJLTYR, MJCOKELY, COCCRKLY
zażywanie narkotóków od których upłynęło ponad 12 miesięcy: MJGT12MO, COCGT12MO, ANYGT12MO
alkohol: ALCFMFPB

Jako wskaźnik edukacji:

IREDUC2, EDU_DUMMY

Jako wskaźnik ekonomiczne:

INCOME - dochód rodziny
INCOME_R - dochód własny
POVERTY - dochód rodziny odniesiony do wskaźnika biedy
IRPRVHLT - prywatne ubezpieczenie zdrowotne
WORKFORCE - informacja czy osoba pracuje/pracowała
EMPSTAT4 - status zatrudnienia

Jako wskaźnik warunków zamieszkania

REVERSEPOP - charakterystyka miejsca zamieszkania (gęstość zaludnienia)
MOVESPY2 - liczba przeprowadzek w okresie ostatnich 12 miesięcy
CACHAR, CATYPE - typ mieszkania

Jako wskaźnik konfliktów z prawem:

CRIMEHIST, ANYSDRUG, ANYATTACK, ANYTHEFT
NUMARREST

Stan zdrowia:

HEALTH2 - stan zdrowia
SCHDSICK liczba dni opuszczonych w szkole z uwagi choroby (dla uczniów)
SCHDSKIP liczba dni opuszczony z powodu wagarów
TXLCAD - informacja o terapii uzależnień od narkotyków lub alkoholu
DSTNCALM, DSTTIRE, DSTSITST, DSTDEPRS, DSTCHEER, DSTNRVOS
można również znaleźć informację o myślach samobójczych (YOWRSATP, YOWRSPLN, ADWRDLOT, ADWRSTHK) czy też problemach ze snem (YO_MDEA4, ADWRSLEP, ADWRSMOR) lub zaburzeniach apetytu (YO_MDEA3, ADWRELES)

Inne informacje rodzinne:

IRMARIT - stan cywilny
NOMARR2 - liczba razy kiedy osoba wchodziła w związek małżeński
RKIDSHH - liczba dzieci respondent
MARRIED aktualny stan cywilny
CHILDRENINHOME

Przed użyciem danej cechy zapoznaj się z jej specyfikacją oraz informacjami o brakujących wartościach. Podejmij decyzję w jaki sposób traktować wartości brakujące, uzasadnij swój wybór w odniesieniu do najważniejszych zmiennych a w szczególności indeksu depresji.

Faza I - analiza czynnikowa i eksploracja

Głównym celem jest analiza czynników wpływających na możliwość rozwoju depresji. Przeanalizuj wpływ czynników związanych z pracą, zarobkami, środowiskiem zamieszkania, rasą, płcią, informacjami rodzinnymi, uzależnieniem od narkotyków i stanem zdrowia psychofizycznego.
Na podstawie wstępnej analizy wybierz co najmniej 6 istotnie różne czynniki dla których sprawdzisz stosując znane Ci metody oceny istotności jak te czynniki zmieniają się w zależności od grupy wiekowej i od płci, możesz również sprawdzić czy istnieją istotne zmiany dla typu depresji (somatycznej i niesomatycznej).
W analizie wybranych czynników dodaj wnioski oraz opisz obserwacje, tam gdzie to potrzebne możesz zamieścić wykres lub tabelę, pamiętaj jednak, że pod każdym wykresem powinien znajdować się komentarz z obserwacjami

Uwaga

Pamiętaj że w przypadku analizy czynników związanych ze stanem psychofizycznym mogą one być silnie powiazane z wskaźnikiem depresji (wyznaczanym na podstawie wielu cech z ankiety), stąd staraj się spojrzeć krytycznie na możliwe relacje między czynnikami które mogą powodować przecieki informacji.
Często czynniki oprócz podzbioru dyskretnych lub ciągłych wartości zawierają dodatkowe wartości kodujące informacje o powodzie dla którego dana odpowiedź nie została udzielona, zwróć na to uwagę i podejmij decyzję o sposobie traktowaniu obsługi tych wartości.

Sugestie

Do analizy możesz wykorzystać np. korelację, regresję (w tym model ols umożliwiający ocenę istotności zmiennej oraz istnienie powiązań między zmiennymi), możesz również spróbować stworzyć własne cechy. Możesz założyć, że część czynników ma charakter ciągły a część (zdecydowana większość) może być traktowana jako zmienne nominalne lub mieszane,
Możesz próbować również, stosujące metody uczenia nienadzorowanego ocenić czy możemy, analizując dane znaleźć pewne grupy (clustry) osób i czy te grupy są zależne np. od kategorii wskaźników depresji.

Faza II - predykcja

W fazie tej należy wykorzystać wnioski a fazy I do budowy modelu regresyjnego OLS umożliwiającego ocenę ryzyka depresji u danej osoby. Dla porównania możesz również spróbować stworzyć model oparty np. o drzewa decyzyjne i porównać jego wyniki z wynikami modelu wykorzystującego OLS. Budowa modelu oceny ryzyka składa się z następujących etapów

Stwórz model regresyjny umożliwiający oszacowanie natężenia depresji u danej osoby lub model, który dokonuje klasyfikacji na osoby z depresją i bez - decyzję które podejście wybrać podejmij w oparciu o własne testy i analizy.
Dokonaj ocenę modelu, (użyj do tego zbioru walidacyjnego), pamiętaj żeby ten zbiór miał możliwie podobny rozkład populacji
Przeanalizuje wyjście z modelu, którym jest prawdopodobieństwo przynależności do danej klasy, w tym celu jeżeli wykorzystałeś model regresyjny możesz zastosować na wyjściu aktywację w postaci funkcji sigmoidalnej,
Posortuj otrzymane wyniki po wartości prawdopodobieństwa i podziel je na 5-8 równolicznych grup, dla każdej z tych grup wyznacz ryzyko wystąpienia depresji (bazując na ilorazie liczby osób z depresją i całkowitej liczby osób). Wyświetl wykres zmian ryzyka dla poszczególnych grup
Stwórz tablicę przeglądania lub model, który, będzie klasyfikowała daną obserwację do jednej z wyznaczonych grup ryzyka
Dla zbioru walidacyjnego oceń jak wygląda liczebność poszczególnych grup ryzyka
Na podstawie parametrów modelu regresyjnego przeanalizuj grupę o najniższym i najwyższym poziomie ryzyka depresji, spróbuj ją scharakteryzować.

– Autorzy: Piotr Kaczmarek